te reo m \ = aori(称为m \ = aori),新西兰的土著语言在语言技术中的资源不足。 m \ = aori扬声器是双语的,其中m \ = aori用英语进行了代码开关。不幸的是,M \ = AORI语言技术,语言检测和M \ = Aori-English对之间的代码转换检测的资源最少。英语和M \ = AORI都使用罗马衍生的拼字法制作基于规则的系统来检测语言和代码转换限制性。大多数M \ = AORI语言检测是由语言专家手动完成的。这项研究构建了66,016,807个单词的Aori英语双语数据库,并带有单词级语言注释。新西兰议会汉萨德辩论报告用于构建数据库。语言标签是使用特定语言规则和专家手册注释分配的。 M \ = AORI和英语的单词具有相同的拼写,但含义不同。这些词不能根据单词级的语言规则将其归类为M \ = AORI或英语。因此,需要手动注释。还报道了报告数据库的各个方面的分析,例如元数据,逐年分析,经常出现的单词,句子长度和n-grams。这里开发的数据库是新西兰Aotearoa的未来语言和语音技术开发的宝贵工具。遵循标签数据库的方法也可以遵循其他低资源的语言对。
translated by 谷歌翻译